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摘 要 : 现 有 的 中 文 自动 文本 摘要 方法 主要 是 利用 文本 自身 的 信息 ， 其 缺陷 是 不 能 充分 利用 词语 之 间 的 语义 相关 等 
信息 。 鉴 于 此 ， 提 出 了 一 种 改进 的 中 文 文本 摘要 方法 。 此 方法 将 外 部 语料库 的 信息 用 词 向 量 的 形式 融入 到 TextRank 
算法 ， 通 过 TextRank 与 word2vec 的 结合 ， 把 句子 中 每 个 词语 映射 到 高 维 词 库 形 成 名 向 量 。 充 分 考虑 句子 之 间 的 相 
似 度 、 关 键 词 的 覆盖 率 和 句子 与 标题 的 相似 度 等 因素 ， 以 此 计算 句子 之 间 的 影响 权重 ， 并 选取 排序 最 靠 前 的 句子 重 
新 排序 作为 文本 的 摘要 。 在 本 文 的 数据 集中 取得 了 较 好 的 效果 。 实 验 结果 表明 ， 此 方法 自动 提取 中 文摘 要 的 效果 比 
原 方法 好 。 
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Chinese automatic text summarization based on weighted TextRank 


Huang Bo, Liu Chuancai 
(School of Computer Science & Engineering, Nanjing University of Science & Technology, Nanjing 210094, China) 


Abstract: The method of Chinese existing automatic text summarization mainly utilized the text's own information, and its 
defect was that it cannot make full use of the related semantic information between the words. Therefore, this paper 
proposed an improved Chinese text summarization method. This method integrated the information of the external corpora 
into the TextRank algorithm in the form of a word vector. Combined TextRank with Word2vec, it mapped each word in the 
sentence to the high-dimensional lexicon to form a sentence vector. This method fully considered the similarity between 
sentences, the coverage of keywords and the similarity between sentence and title to calculate the influence weights among 
sentences, and choose the top-ranked sentences used as the summarization of the text. This method has achieved good 
results in the data set of this paper. The results of experiment show that this method is more effective than the original 
method in extracting Chinese summarization automatically. 
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0 引言 1 ”相关 工作 

随 着 计算 机 信息 技术 的 发 展 ， 互 联网 上 的 各 种 信息 数据 文本 摘要 可 以 利用 文本 信息 本 身 的 内 容 和 结构 特征 实 
以 指数 级 速度 爆炸 增长 。 如 何 从 海量 的 文本 信息 中 快速 获得 。 现 ， 并 在 一 定 程度 上 满足 需求 ， 以 TextRank 算法 9 为 典型 代 
用 户 所 需要 的 信息 变 得 格外 重要 ， 传 统 人 工 提 取信 息 的 方法 ” 表 。 除 此 之 外 ， 也 可 以 通过 大 量 的 语 料 信 息 进 行 训 练 学 习 来 


已 经 不 能 满足 需求 ， 而 自动 文本 摘要 越 来 越 受到 关注 ， 具 有 由 取 摘 要 。 这 类 方法 不 同 于 传统 算法 实现 简单 ， 需 要 大 量 的 
很 大 的 应 用 价值 。 训练 数据 。 对 于 一 篇 文档 , 传统 算法 大 多 忽略 它 的 词语 语义 、 


文本 摘要 通过 对 文本 信息 概括 总 结 提取 出 主要 内 容 。 村 的 集合 ， 并 且 每 个 词语 都 是 
据 摘要 方式 的 不 同 ， 自 动 文摘 技术 可 以 分 为 抽取 式 摘 要 和 入 独立 出 现 的 ， 互 相 不 依赖 彼此 之 间 出 现 与 否 。 如 果 将 外 部 知 
成 式 摘要 两 种 上 1。1958 年 ，IBM 公司 的 Luhn 基于 高 频 词语 ” 识 如 语料库 等 信息 融入 到 自动 文本 摘要 的 算法 之 中 ,理论 上 
的 评分 提出 了 一 种 文本 摘要 方法 证 ， 开 启 了 自动 文本 摘要 万 能 够 改善 效果 。 由 Google 研究 团队 开发 的 word2vec 模型 中 
究 的 先河 。 葛 斌 等 人 通过 把 文本 中 的 句子 构建 成 无 向 图 ,将 ”使 用 词 向 量 名 表示 词语 ， 可 用 来 表示 词语 之 间 的 关系 。 本 文 
文本 摘要 的 提取 转换 为 图 模型 中 节点 的 权重 计算 里。Erkan ”将 word2vec 与 TextRank 算法 进行 融合 并 加 以 改进 ， 采 用 基 
等 人 由 提出 了 一 种 基于 LexRank 算法 的 文本 摘要 算法 ， 主 要 于 词 向 量 的 高 维 词 库 映 射 计算 句子 之 间 的 相似 度 ， 而 取代 基 
根据 词 的 权重 或 者 句子 的 特征 计算 句子 的 权重 ， 利 用 向 量 空 ” 于 相同 词语 共同 出 现 的 频率 作为 句子 之 间 的 影响 权重 ,但 纶 
则 模型 表示 成 图 模型 ， 通 过 计算 句子 之 间 的 相似 度 提取 出 相 ”化 了 共 现 词语 的 加 权 作 用 。Luhn 的 论文 中 指出 ， 频 繁 出 现 的 
以 度 较 大 的 句子 作为 文本 摘要 。 李 峰 等 人 外 使 用 关键 字 扩 展 ” 词语 与 文章 的 主题 有 比较 大 的 关联 ， 根 据 词语 出 现 的 频率 计 
的 方法 从 新 闻 文 本 中 自动 提取 摘要 。 本 文 的 研究 内 容 主 要 是 。 算 句 子 的 权重 并 排序 形成 摘要 ， 准 确 率 比 不 少 复杂 的 方法 要 
面向 单 文档 的 中 文 文本 ， 即 针对 单独 的 一 篇 文档 基于 文本 中 ”高 中 。 李 峰 等 人 四 基于 TextRank 使 用 关键 词 扩展 提取 文本 摘 
句子 的 权重 评分 提取 句子 生成 摘要 。 取得 了 优 于 原 方法 的 效果 。 关 键 词 对 文章 中 的 摘要 句子 的 
取 起 着 很 大 的 作用 ， 增 加 关键 词 的 覆盖 率 ， 即 关键 词 在 外 
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子 分 词 后 所 有 词语 中 占 的 比例 作为 句子 的 加 权 权 重 ， 补 充 了 
词语 的 加 权 作用 。 除 此 之 外 文章 标题 往往 在 一 定 程度 上 代表 
了 文章 的 主要 内 容 ， 程 园 等 人 09 充 分 考虑 文本 中 的 词 频 、 标 
题 、 句 子 位 置 及 句子 相似 度 等 特征 构建 特征 加 权 函 数 提取 关 
键 句 生成 摘要 。 句 子 与 文本 标题 相似 程度 越 大 越 可 能 是 关键 
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算 的 一 款 工具 ， 它 可 以 高 效 地 训练 百 万 以 上 级 别 的 数据 集 ， 
主要 有 以 Huffman 树 为 基础 的 CBOW (continuous 
bags-of-words model ) 和 skip-gram (continuous skip-gram 
model) 两 种 模型 。CBOW 模型 基于 上 下 文 预测 当前 词语 的 
概率 ， 而 Skip-gram 模型 则 是 基于 当前 词语 预测 上 下 文 的 概 


句 。 因 此 本 文 利用 句子 之 间 的 相似 度 、 句 子 中 关键 词 的 覆盖 
率 和 人 句子 与 标题 的 相似 度 共同 作为 句子 之 间 权 重 的 影响 因 
子 ， 以 提取 文本 的 摘要 结果 。 
1.1 TextRank 算法 
经 典 的 TextRank 算法 将 Google 公司 PageRankt! 9 算法 
的 思想 引入 到 了 文本 摘要 之 中 , 基于 TextRank 算法 的 自动 文 
本 摘要 算法 将 文本 信息 拆 分 成 句子 作为 网 络 节点 ， 并 组 成 句 
子 网 络 的 图 模型 ， 用 来 表示 句子 之 间 的 结构 关系 。 并 通过 图 
的 迭代 计算 实现 重要 性 排序 。 该 方法 不 需要 对 语料库 或 者 其 
也 相关 文档 提前 进行 学 习 训 练 ， 实 现 简 单 且 效果 不 错 ， 因 此 
得 到 了 广泛 的 应 用 。 
TextRank 算法 的 一 般 模 型 可 以 表示 为 一 个 带 权 的 图 模 
型 G=(V, E)， 其 中 V 为 节点 集合 ， 即 句子 构成 的 节点 集合 ， 
E 为 边 集合 , 用 wj; 表示 任意 两 个 节点 Vi 和 Vj 之 间 边 的 权重 ， 
即 句子 Vi 与 句子 Vj 之 间 的 相似 度 。 对 于 任意 给 定 的 节点 Vi， 
In(Vi) 为 指向 该 节点 的 节点 集合 ，Out(Vi) 为 节点 Vi 指向 的 节 
点 集合 031。 节 点 Vi 的 评分 数值 计算 公式 如 下 : 
Ww 
WO BY) 0 
式 (1) 为 TextRank 的 递归 式 09， 其 中 4 为 阻尼 系数 
(Damping Factor)， 取 值 范围 为 0 到 1 之 间 ， 表 示 图 模型 中 
某 节点 指向 其 他 节点 的 概率 。 阻 尼 系 数 过 大 会 使 需要 从 代 的 
次 数 又 增 且 算法 的 排序 不 稳定 ， 阻 尼 系 数 过 小 会 导致 欠 代 过 
程 没有 明显 效果 ， 一 般 情 况 下 取 值 为 0.85051。 
边 的 权重 wij; 用 句子 的 相似 度 来 表示 , 基于 计算 句子 之 间 
共同 词语 的 覆盖 率 ， 即 通过 比较 不 同 句 子 之 间 共 同 词语 出 现 
的 个 数 。 对 于 给 定 两 个 句子 % 和 S; ， 采 用 如 下 公式 进行 计 
算 : 


|{h lu es AsSil 
log(|S,|) +1log(|S,|) (2 
其 中 Si = [wiy, wiz, .…， Wij .…, Win]; 为 句子 去 除 停 用 词 之 后 的 
词语 集合 ,wij 为 第 i 句 中 去 除 停 用 词 后 第 j 个 词语 ,PageRank 


wj; =Similarity (s, 3) ) 


率 ， 两 种 模型 都 包含 input、projection 和 output 三 层 结构 191， 
分 别 如 图 1、2 所 示 。 


W(t-2) 
W(t-1) Sum 
| 一 一 一 一 W(t) 
W(t+1) 
W(t+2) 
Input Projection Output 
图 1 crow 模型 示意 
Fig.1 CROW model 
W(t-2) 
Sum 
> W(t-1) 
Wt) 一 一 一 8 5 
se W(t+1) 
W(t+2) 
Input Projection Output 


图 2 Skip-gram 模型 示意 

Fig.2 Skip-gram model 

两 种 方法 利用 人 工 神经 网 络 训练 大 批量 文本 ， 将 文本 中 
的 词语 转换 为 N 维 向 量 空间 中 的 词 向 量 , 利用 计算 空间 文本 
向 量 的 相似 度 衡量 文本 的 相似 度 。 当 神经 网 络 训练 完成 时 ， 

可 求 出 语料库 中 词 的 出 现 次 数 超过 预先 设 定 值 的 词 向 量 。 

2 ”研究 方法 
基于 TextRank 的 自动 文本 摘要 算法 的 思想 是 将 文本 摘 
要 的 提取 过 程 转换 成 文本 中 人 句子 重要 程度 的 排序 过 程 。 首 先 
民 据 word2vec 模型 训练 语料库 得 到 词语 的 词 向 量 转换 获得 
名 向 量 ， 然 后 根据 名 向 量 计算 句子 之 间 的 相似 度 ， 构 建 候选 


算法 通过 计算 两 个 网 页 之 间 的 互相 引用 次 数 得 到 网 页 的 重要 
程度 , 在 TextRank 算法 中 则 是 用 句子 的 相似 度 来 取代 网 页 之 
间 相 互 链接 的 个 数 03。 比 如 “我 / 爱 / 中 国 ” 和 “你 /喜欢 /中 国 
/ 吗 ” ， 边 的 权 值 为 : 
1 
Wj = Similarity (s;,s; ) = Tog (3) riog td) 

这 种 方法 在 计算 句子 的 相似 度 起 到 了 一 定 程度 上 的 效 
果 , 但 是 却 忽略 了 词语 的 语法 、 语义 等 影响 因素 ,如 近义词 、 
反义词 之 间 的 关系 等 。 
使 用 TextRank 算法 计算 图 模型 中 各 节点 的 得 分 时 , 首先 
指定 图 模型 中 每 个 节点 任意 的 初始 值 ， 然 后 根据 边 的 权重 递 
归 和 迭代 计算 ， 直 到 图 模型 中 任意 节点 的 误差 率 小 于 预先 设 定 
的 极限 值 时 收敛 ， 每 个 节点 的 最 后 得 分 不 受 给 定 初始 值 的 影 
响 。 前 人 的 研究 实验 表明 ， 一 般 取 极 限 值 为 0.000195 时 ， 递 
归 计 算 能 够 很 好 地 收敛 。 
1.2 Word2vec 模型 

Word2vec[1 是 2013 年 Google 公司 开发 的 用 于 词 向 量 计 


句子 网 络 的 图 模型 ， 即 完整 的 句子 之 间 的 概率 转移 矩阵 ， 通 
过 迭代 运算 获取 节点 的 重要 性 , 实现 自动 文摘 的 排序 和 抽取 。 
2.1 中 文 文本 预 处 理 及 特征 选择 

利用 自然 语言 处 理 (natural language processing，NLP) 
中 1 相关 技术 对 文本 信息 进行 处 理 ， 首 先 将 文本 正文 切 分 成 单 
个 句子 ， 然 后 再 利用 中 科 院 NLPIR 汉语 分 词 系统 (又 名 
ICTCLAS2013 ) 将 句子 进行 分 词 081， 过 滤 掉 文本 中 无 意义 的 
停 用 词 ， 如 “的 、 地 、 得 、 了 ”等 ， 得 到 每 个 句子 的 词 集合 。 
2.2 ”基于 词 向 量 模 型 的 中 文 文本 表示 

Word2vec 本 质 上 是 利用 浅 层 的 神经 网 络 模型 (一般 为 三 
层 ) 学 习 训练 词语 在 语料库 或 数据 集中 出 现 的 概率 ， 将 词语 
用 一 个 合适 的 维度 空间 表示 成 数值 形式 ， 即 词 向 量 ， 词 语 之 
间 的 相似 性 可 以 使 用 词 向 量 之 间 的 相似 性 来 度量 。 相 较 基于 
传统 稀 艳 矩阵 表示 词语 的 方法 在 解决 实际 问题 时 经 常会 遇 到 
维 数 灾难 ， 无 法 表示 词语 之 间 的 语义 、 语 法 信息 和 内 在 联系 
等 问题 ，word2vec 生成 的 词 向 量 不 仅 解决 了 维度 灾难 问题 
一 一 即 词 向 量 的 维度 会 因为 文本 的 增加 无 限制 地 增 大 ， 而 且 
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了 词 向 量 语义 上 的 准确 度 。 Word2vec 在 大 规模 语料库 中 训练 
学 习 得 到 的 词 向 量 中 蕴涵 的 词语 语义 信息 ， 可 以 很 好 地 用 来 
表示 词语 之 间 药 涵 的 联系 。 比 如 , 传统 模型 中 “好 像 ” 和 “ 似 
乎 ”两 个 词语 毫 无 联系 ， 但 在 Word2vec 词 向 量 中 两 个 词语 
有 着 较 高 的 相似 度 。 

一 般 常 使 用 维度 为 100 作为 训练 Word2vec 词 向 量 的 维 
度 标 准 ， 如 果 维 度 过 大 ， 模 型 的 训练 复杂 度 将 会 剧 增 。 并 且 
词 向 量 每 一 个 维度 上 的 数值 只 能 表示 该 维度 上 词语 正 相 关 或 
者 负 相 关 的 程度 ， 其 数值 大 小 并 不 能 表示 与 训练 词 库 中 词语 
对 应 的 实际 相关 程度 。 所 以 在 默认 维度 为 一 百 的 数量 级 情况 
下 ， 使 用 词 向 量 直接 累加 求 平 均值 或 者 取 每 个 维度 的 最 大 值 
这 两 种 方法 都 不 能 很 好 地 用 来 表示 句子 。 本 文 利 用 训练 的 词 
句 量 模型 ， 设 计 了 一 种 句 向 量 的 计算 方法 ， 进 行 句子 相似 度 
的 计算 。 日常 汉 语 的 使 用 中 ， 几 千 至 几 万 个 词语 几乎 能 够 表 
达 出 绝 大 多 数 文本 的 信息 。 本 文采 用 词 库 映射 的 方法 ， 构 建 
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在 从 大 规模 语料库 中 挖 气 了 词语 之 间 的 关联 属性 ， 因 此 提高 


t= model[d]// 获 得 词语 d 对 应 的 词 向 量 
else 
t= [0] 
end 让 
将 t 加 入 到 词 向 量 集合 T 
end for 
初始 化 句子 向 量 集合 5 
forrinR 
初始 化 词语 相似 度 集合 C 
fortinT 
将 cos(pt) 加 入 C 
end for 
取 集合 c 中 最 大 的 值 加 入 集合 5 


end for 


return S 


其 中 ， 第 15 步 的 cosGb 即 用 式 (4) 求 词 向 量 之 间 的 相似 度 ， 


高 维 词 库 将 文本 的 语义 信息 映射 到 常用 的 高 频 词 库 中 ， 利 用 
词 库 映射 句子 语义 得 到 句 向 量 。 
首先 构建 一 个 具有 N 个 词 的 高 频 常 用 词 词 库 , 结合 词 库 
中 每 个 词 的 词 向 量 , 可 以 将 每 个 文本 映射 成 一 个 具有 NN 维 的 
向 量 ， 向 量 的 每 一 维 分 别 是 高 频 词 库 中 该 维度 所 对 应 的 词语 
和 文本 中 每 个 词语 的 相似 度 的 最 大 值 ， 文 本 可 以 是 句子 或 者 
文章 等 等 。 在 词语 的 相似 度 计算 上 ， 这 种 方法 相 比 基于 上 下 
文 的 方法 , 每 一 个 词语 都 得 到 了 该 词语 在 高 维 词 表 中 的 映射 ， 
并 表达 成 了 Word2vec 模型 的 稠密 特征 ， 形 如 [0.231262， 
0.178923, 0.798699, 0.325891,...]， 几 乎 不 存在 维度 为 0 的 稀 
玻 情况。 可 以 赋予 每 个 词语 更 加 丰富 的 语义 分 布 ， 本 质 上 是 
对 bag of words 的 一 个 扩展 ， 而 不 是 形 如 [0,0,1,0,0,0,0,0,.….] 
用 简单 的 非 0 或 0 来 表示 绝对 相关 或 绝对 不 相关 ， 这 对 于 解 
决 bag of words 的 稀疏 性 问题 效果 较 好 。 

使 用 word2vec 工具 利用 高 维 词 库 R 表示 文本 向 量 ， 假 
设 高 维 词 库 中 共有 n 个 词语 ， 表 示 词 向 量 的 形式 : 

R=[Im mr, .…, i,...， In], Ti 表示 高 维 词 库 中 第 i 个 词语 的 
词 向 量 。 

设 文本 经 过 分 词 去 掉 特殊 符号 和 停 用 词 后 ， 
则 使 用 词 向 量 将 文本 表示 为 : 

T=[tu bp, ,6 ，…, tm，6 表 示 分 词 后 文本 中 第 j 个 词语 
的 词 向 量 。 
将 文本 映射 到 高 维 词 库 中 则 表示 为 : 


入 三 max (similarity (ni,t, ))， 


Fei 


m 个 词语 ， 


max (similarity (1,1 ))ss 
1<j<m 和 


max (similariy (x,t,)),..., 3) 
ari 

其中 :采用 余弦 距离 表示 向 量 之 间 的 相似 度 ， 即 
similarity(1,t;) = cos (1,t;) (4) 


具体 算法 如 下 : 

算法 1 求 中 文句 子 文 本 的 句 向 量 
输入 : 句子 文本 ， 高 维 词 库 词 向 量 集合 R， 词 向 量 模型 model 
输出 : 句 向 量 
对 句子 文本 分 词 、 去 除 符号 和 停 用 词 ， 得 到 词语 集合 D 
初始 化 句子 词 向 量 集合 T 
fordinD 

if(d in model)// 如 果 词 语 d 包含 在 模型 model 中 


第 19 步 中 需要 将 集合 类 型 进行 转换 成 数值 类 型 。 
2.3 TextRank 权 值 计算 

原始 的 TextRank 自动 文本 摘要 算法 计算 句子 之 间 的 相 
似 度 一 般 采 用 式 (2), 但 是 只 是 简单 地 计算 句子 之 间 相 同 词语 
的 覆盖 率 作为 边 的 权重 。 为 了 进一步 提高 文本 摘要 的 效果 ， 
本 文 使 用 Word2vec 工具 将 外 部 知识 引入 到 自动 文摘 中 ， 在 
计算 TextRank 算法 中 边 的 权重 上 作出 如 下 改进 。 利 用 文档 句 
向 量 之 间 的 关系 , 在 句子 之 间 构 建 TextRank 模型 ,通过 句子 
之 间 的 相似 度 、 关 键 词 的 覆盖 率 和 句子 与 标题 的 相似 度 对 
TextRank 图 模型 节点 之 间 的 概率 进行 加 权 ， 计 算 每 个 句子 的 
影响 力 权 重 ， 按 照 权 重 由 大 到 小 排序 。 
2.3.1 句子 之 间 的 相似 度 
将 句子 使 用 中 文 分 词 去 掉 标点 符号 和 停 用 词 之 后 得 到 词 
语 的 集合 ,按照 式 (3) 将 句子 映射 到 高 维 词 库 中 表示 成 向 量 形 
式 。 计 算 两 个 使 用 高 维 词 库 映射 的 句子 % 和 由 相 似 度 时 ， 也 
采用 余弦 距离 表示 〈% 和 8 都 是 使 用 高 维 词 库 映射 的 向 量 ); 

W. (5,,8))=similarity(S,,S,)=cos(S,,S,) (5) 
2.3.2 关键 词 的 覆盖 率 

句子 中 包含 的 关键 词 越 多 ， 则 句子 的 重要 程度 越 高 。Wi 
(Si ,Sj) 表 示人 句子 节点 8 关键 词 履 盖 率 权重 传递 给 句子 节点 Sj 
的 权重 ， 公 式 为 


P(S,) 


W (5,,5,) Cj (6) 


式 (6) 中 ，p($i) = len(keywords(Si))len(Si)， 表 示人 句子 8 
中 关键 词 的 个 数 与 句子 中 总 词 数 〈 去 除 标点 符号 和 停 用 词 ) 
的 比例 ， 即 句子 5i 中 关键 词 的 覆盖 率 。 
2.3.3 句子 与 标题 的 相似 度 

句子 与 文本 标题 的 相似 度 越 高 , 则 句子 的 重要 程度 越 高 。 
Wi (Si, 5)) 表 示人 句子 5; 节点 与 标题 相似 度 权 重 传 递 给 句子 节点 
Sj; 的 权重 ， 公 式 为 


similarity(S ), S, ) 
2 SeOut(S, 人 3) 2 


W (5,,5))= 


51 为 映射 到 高 维 词 库 的 表示 文本 标题 的 词 向 量 ，S; 和 5; 
为 映射 到 高 维 词 库 的 句子 词 向 量 ，Similarity($;，S) 即 为 句子 
中 与 标题 $1 的 相似 度 。 计 算 其 相似 度 一 般 采 用 余弦 距离 ， 即 
式 (5)。 


.00112V1 


GN 


:20181 


XIV 
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录用 定 


根 ] 


W(S, 


稿 


5). W (ss), Ww(S5)) 
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时 上 述 公式 构建 新 的 句子 之 间 影 响 力 的 权重 ， 将 


三 种 权重 影响 因子 分 别 归 一 化 之 后 得 到 


Ww (5,,5,)、 W. (5,,5,)、 W (5,,5,) 


构建 句子 影响 力 权 习 


公式 为 


Ww, =aW. (5,,S,)+bW.(S,,S,)+cWw, (5,,S,) (8) 


其 中 


刀子 ， 


率 和 句子 与 标题 的 术 
建 好 的 图 模型 ， 提 出 影响 节点 (句子 ) 
a、b、c 为 这 三 种 句子 之 间 
的 加 权 系 数 ， 加 权 系 数 越 大 代表 


a、b、c 分 别 代表 句子 之 间 的 相 
目 似 度 计 算 权重 时 所 


以 度 、 关 键 词 的 覆盖 


5 的 比重 ， 即 对 于 构 
之 间 权 重 的 三 个 影响 


权重 影响 因子 在 归 一 化 后 


革 对 应 的 权重 影响 因子 在 计 


算 权 重 时 的 影响 力 越 大 。 其 取 值 均 在 0~1， a+D+c= 7。 
3 ”实验 
3.1 实验 数据 及 评价 标准 

本 文采 用 2017 年 10 月 发 布 的 维基 百科 中 文 数据 和 清华 
大 学 自然 语言 处 理 实验 室 推出 的 中 文 文本 新 闻 数 据 集中 的 一 
部 分 ， 过 滤 掉 标点 符号 和 其 他 无 关 符 号 等 数据 清洗 之 后 ， 通 


过 中 科 院 张 华 平 博士 研究 的 中 文 分 词 工具 


NLPIR 汉语 分 词 


系统 (又 名 ICTCLAS) 进行 分 词 ， 形 成 提供 学 习 训练 的 文本 


数据 集 ,然后 使 


基于 python 语言 的 自然 语言 处 理 库 Gensim 
中 Word2vec 模块 ， 采 用 CBOW 模型 、 维 度 为 100、 窗 口 
小 为 5 等 默认 参数 对 该 文本 数据 集 进行 学 习 训练 得 到 词 向 
模型 文件 031。 
目前 中 文 自动 文本 摘要 没有 一 个 公认 的 评估 语 料 和 评估 


有 并 


标准 


， 本 文 的 测试 文本 数据 集 来 
昌 集 ， 取 其 中 的 体育 、 


实验 室 推 出 的 中 文 文本 新 闻 数 拉 


科技 、 


时 政 、 娱乐 的 5 个 类 别 各 20 篇 共 100 篇 作为 测 


自 于 清华 大 学 自然 语言 处 理 
财经 、 
试 语 料 


库 。 由 三 位 语言 学 相关 专业 的 研究 生 对 测试 语 料 中 的 文本 信 
息 人 工 提 取 摘 要 ， 三 位 研究 生 分 别 独立 地 从 每 篇 文档 中 提取 


出 8 到 10 个 摘要 句子 ,并 按 与 文章 内 容 相 关 程 度 从 大 到 小 排 


序 ， 最 后 综合 三 人 的 摘要 结果 ， 取 结果 相同 的 与 文章 内 容 相 


关 程 度 最 大 的 3 个 句子 作为 人 了 
实验 摘要 质量 的 评价 方法 采用 自动 摘要 领域 使 用 
的 Rouge 指标 09，Rouge 基于 摘 


[摘要 句子 。 


最 广泛 
要 中 元 词 (n-gram) 的 共 


现 信息 来 评价 摘要 ， 是 一 种 


面向 n 元 词 召 回 率 (recall) 的 自 


动 化 评价 方法 。 基 本 思想 是 将 系统 自动 生成 的 自动 摘要 与 人 


工 生 成 的 标准 摘要 对 比 ， 通 过 统计 


(n 元 语法 、 


文采 月 


3.2 影响 因子 加 权 系 数 的 确定 


为 | HH 评 估 
Rouge-1、Rouge-2、Rouge-L 三 种 评价 指标 作为 衡量 标准 ， 


词 序列 和 词 对 ) 的 数目 
有 Rouge-1、Rouge-2、Rouge-L 三 种 评价 指标 来 评价 。 


者 之 间 重 盖 的 基本 单元 
来 评价 摘要 的 质量 。 本 


自动 文摘 的 质量 ， 本 文采 取 上 述 的 


计算 每 篇 文本 每 个 句子 中 基 


覆盖 率 和 句子 与 标题 的 相似 
综合 句子 之 间 权 重 影响 因子 的 加 权 系 数 we、D、c (其 中 


F 句子 之 间 的 相似 度 、 关 键 词 的 
度 三 个 权重 


影响 因子 的 加 权 系 


atb+c=1), 本 文 取 a、b、c 以 0.05 的 间距 改变 ( 增 大 或 减 小 ， 
保证 atbtc=1), 经 过 大 量 实验 , 计算 不 同 加 权 系 数组 合 下 的 


Rouge-1、Rouge-2、Rouge-L 值 ， 选 取 了 一 部 分 


验 数 提 


居 如 表 1 所 示 。 


代表 的 实 


针对 上 文选 取 的 10 组 参数 组 合 ,分 别 计算 每 篇 测试 文本 


的 


动 文摘 结果 ， 并 取 其 均值 ， 实 验 结果 如 图 


3 所 示 。 


实验 结果 表明 ， 当 a=0.6、b=0.2、c=0.2 时 ， 
的 效果 最 好 ， 当 a 的 值 逐 渐 接 近 0.6 时 ， 评 价 效果 总 体 呈 上 
升 趋势 ， 而 当 a<0.5 时 ， 订 ; 
子 之 间 的 相似 度 在 TextRank 权 值 计算 中 起 到 了 重要 的 作用 ， 


F 价 效果 逐渐 
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动 文摘 


下 降 ， 可 以 看 出 ， 名 


huill 


关键 词 的 覆盖 率 和 句子 与 标题 的 相似 度 相对 重要 程度 较 小 。 


表 1 不 同比 例 组 合 下 的 加 权 系 数值 
Table ] Weighting coefficient values under different ratio 
combinations 

组 数 a b c 
1 1 0 0 
2 0.9 0.05 0.05 
3 0.8 0.1 0.1 
4 0.7 0.2 0.1 
5 0.6 0.3 0.1 
6 0.6 0.2 0.2 
7 0.6 0. 25 0.15 
8 0.55 0.35 0.1 
9 0.5 0.3 0.2 
10 0.4 0.3 0.3 


一 名 一 ROUge-1 ——Rouge-2 —#— Rouge-L 


0.6 
过 03 
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x 0.3 
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1 2 3 
图 3 


组 别 


不 同 参数 组 合 的 实验 结果 


Fig.3 Experimental results of different parameter combinations 


3.3 实验 结果 及 分 析 


证 本 文 方法 的 有 效 性 ， 


CTF-IDF) 520 的 方法 、 基 了 


通过 实验 本 文 得 到 了 一 组 最 佳 的 加 权 系 数组 合 ， 
分 别 采 上 
F LexRank、 基 于 TextRank 和 本 


为 了 验 
基于 词 频 - 逆 文 档 概率 


文 改进 的 方法 对 100 篇 测试 文本 摘要 数据 集 进 行 实验 对 比 。 


实验 结果 如 图 4 


0.8 


# TF-IDF 


图 


SR 


所 示 。 


Rouge-1 


三 LexRank 


WY 


Rouge-2 


多 
影 
2» 
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Rouge-L 


器 TextRank 国 本 文 方法 


4 不 同文 本 摘要 方法 的 效果 对 比 


Fig.4 Comparison of the effects of different text summarization 


methods 


录用 定稿 黄 


以 上 实验 数据 表明 ， 本 文 所 改进 的 方法 在 Rouge-1、 
Rouge-2 和 Rouge-L 3 个 评价 指标 上 均 有 了 明显 的 提高 。 基 于 
TF-IDF 的 方法 相 比 而 言 效 果 最 差 ， 本 文 改进 的 方法 要 优 于 
LexRank 算法 和 传统 的 TextRank 文本 摘要 算法 , 除了 考虑 文 
本 自身 特征 外 ， 还 引入 外 部 知识 库 ， 增 加 了 句子 权重 的 影响 
姑 素 。 


4 ”结束 语 


本 文 提出 了 一 种 基于 词 向 量 加 权 的 中 文 自动 文本 摘要 
法 ， 基 于 图 模型 的 句 排 序 算法 结合 word2vec 模型 的 词 向 量 ， 
充分 考虑 了 句子 之 间 的 相似 度 、 关 键 词 的 覆盖 率 、 句 子 与 标 
题 的 相似 度 等 因素 的 影响 。 实 验 结果 表明 ， 针 对 单 文档 的 中 
文 自动 文摘 , 与 传统 的 TextRank 算法 比较 ， 本 文 方法 文摘 的 
由 取 效 果 更 好 ， 有 效 提 高 了 自动 文摘 的 质量 。 但 文本 摘要 速 
有 待 提升 ， 这 是 下 一 步 改进 的 目标 。 
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